Facebook 公司:如何清除 960 万句“脏话”?
The following article is from 亲爱的数据 Author 亲爱的数据
来源 | 亲爱的数据(ID: deardata)
互联网上每天产生多少句脏话?这是一个谜。但是,从Facebook公司2020年第一季度的《透明度报告》里,可以窥到一些面貌。
自2018年5月以来, Facebook公司以季度为周期发布报告,解释其辛苦的幕(zi)后(jin)工(tou)作(ru)。
在2020年第一季度,公司更是成功删除960万条“脏话”内容。这是一个创纪录的数字,高于2019年第四季度的570万条,也超过了2019年第三季度的700万条。
2020年第一季度的全球公众卫生事件,人们有不少坏情绪。
“脏话”是简称,直白的理解是,偏激、仇视性话语(Hate Speech)。民间脏话、方言脏话、描述部分人体器官、人身攻击、种族歧视、性别歧视大抵都包括在内,如果有没有想到的,还望海涵。
每天,打开手机APP,就看见键盘侠“口吐芬芳”,令人大倒胃口。然而,互联网上脏话的量级,人工删除是删不过来的,而且还会误判。
Facebook公司的方法是,用人工智能技术狙击。
但凡审查,就会有漏查。Facebook公司《透明度报告》有一个缺陷,就是它没有提漏查的程度。
透明与公开,是与公众沟通的高明手段,蠢货只有闭嘴这一招。Facebook公司虽然没有满分,但也提供了“榜样”。
让我们看到真善美的存在,也要看到假恶丑如何被干掉。
在Facebook公司第一季度删除的960万个帖子中,软件系统检测到88.8%(在用户看到信息并举报之前)。这表明该算法用机器标记了850万个“脏话”帖子,比上一季度的460万个增长了86%。
2020年第一季度,除了病毒蔓延,“脏话”也在蔓延。
Mike Schroepfe,自2013年3月以来一直担任Facebook公司的首席技术官。他借《透明度报告》发布的机会,重点打了一轮人工智能技术的广告,宣传了该公司自然语言处理技术的进步。
他说:“我们的语言模型变得更大,更准确,更细微了。能够发现细致微妙的东西。”
可惜,Schroepfer并没有解释说明这些系统审查的精确程度,只是说Facebook在部署系统之前对其进行了广泛的测试(测试机器误判的情况)。
毕竟一个把正常表达识别错误的机器,也很让用户恼火。回忆诗人顾城的段子。
Mike Schroepfe引用了新报告中的数据,这些数据表明,尽管在最近的25 - 130万条中,用户更经常地对删除内容的决定提出申诉(有可能是骂骂咧咧习惯了,突然被删,很是不服气),但后来执意恢复的帖子数量有所减少(习惯了)。
Facebook的数据并未表明仇恨言论在其算法网络中漏失了多少。该公司的季度报告估计了Facebook规则禁止的某些类型的内容的发生率,但没有“脏话”内容。新闻官宣显示,自2019年夏天以来,暴力帖子数量有所下降。Facebook公司“仍在制定一项全球指标”。
缺失的数据掩盖了社交网络的脏话言论的真实规模。
西雅图大学副教授凯特琳·卡尔森(Caitlin Carlson)说道:“与Facebook庞大的用户网络以及用户对令人不安的内容的观察相比,删除的帖子数目(960万条)看起来太少了。“
教授认为,960万条“脏话”,这一数据还不够真实?
卡教授这一实验结果,在挑战Facebook。同时,她也发现,同样是“口吐芬芳”,算法对种族歧比在歧视女性方面更为严格。不知道Facebook高管桑德拉看后作何感想。
Facebook表示,对算法找到(标记)的内容与用户报告的处理相同。流程上确定是直接删除,还是警告处理。可能流程上要流转到下一环节,人工审核者。(或者仍由软件判定,视情况而定。)
这时候,要谈谈人工审核员工的苦楚了。
2020年5月,Facebook公司同意支付5200万美元与内容审查团队的员工达成和解。原因很惊人,审查帖子导致他们患上了精神创伤,已获法庭鉴定。外媒The Verge之前详细报道了这一消息。
消息原文:“Facebook承认内容审核会给员工造成巨大的损失,这一次,是具有里程碑意义的承认。Facebook同意向现职和前任审核人员支付5200万美元,以补偿他们因工作出现的心理健康问题。
天天看这些脏话的人,都受了内伤。当然,这得算工伤。
在“剑桥门”事件后,审核报告是Facebook公司透明度程序的一部分,这一程序还包括聘请一个新的外部专家小组(有没有研究脏话的专家?),该小组有权推翻该公司的审核决定。
讲道理,只有董事会才是公司最高权力机构。
公司协调外部力量参与的力度很大。毕竟罚金有点高,这样下去,扎克伯格就会比亚马逊公司的贝佐斯穷多了。
(“剑桥门”事件,脸书认罚50亿,当然是美金。)
她说:“要与公司进行对话,我们需要数据。”
当被问及为何不报告“脏话”言论泛滥情况时,Facebook公司发言人指出,该报告的衡量标准“正在缓慢扩展,以覆盖更多的语言和地区,以考虑到文化背景和个别语言的细微差别” 。
定义和检测“脏话”是Facebook和其他平台面临的最大社会和技术挑战之一。
自动化是很棘手的,因为人工智能距离人类对文本的理解还有很长的路要走,理解文本和图像共同传达的微妙含义的算法的研究才刚刚开始。
Schroepfer说道:“机器学习算法在语言学研究的帮助下,Facebook已经升级了检测算法。许多高科技公司正在对其处理语言的软件系统(例如谷歌的搜索引擎)进行改造,提高用算法解决诸如回答问题或澄清歧义等语言问题的能力。”
他强调:“(这是)重大改进。”
Schroepfer还明确指出,这些改进并不能使技术达到完美。
《透明度报告》透露出,在内容审查和审核方面,Facebook重兵布防人工智能。脏话会影响社交网络的根基,人工智能再昂贵也要用起来。
该公司将向研究小组提供10万美元的奖金,激励这些研究小组开发出能够最好地发现可恶的模因与良性内容相混合的开源软件。
美国还在对社交媒体内容中的“脏话”监管采取放任不管的态度。
德国2017年通过了《网络执法法》(NetzDG),该法要求拥有或超过200万用户的社交媒体公司必须删除或阻止访问报告的内容,因其违反了德国刑法对仇恨言论的限制(《网络实施法》,2017)。
公司必须在收到通知后的24小时内删除“明显的仇恨言论”,否则将面临5000万美元的罚款(Oltermann,2018年)。
值得一提的是,在2019年恐怖主义袭击了新西兰的两座清真寺之后,全球领导人与脸书、谷歌、推特等其他公司高管会面,共同制定了一套名为《基督城召唤》(Christchurch Call)的全球反恐准则,制定针对极端、暴力,以及仇视性言论。
更值得一提的是,美国没有签署承诺。
远在海外的抖音国际版(Tiktok)也发布了《透明度报告》(2019年12月),只有五页纸。
别问为什么,被逼的。
【END】
更多精彩推荐
☞Linux 之父怒删工程师提交的补丁,称“太蠢了”网友:怼得好!
☞性能超越最新序列推荐模型,华为诺亚方舟提出记忆增强的图神经网络